Убедитесь, что данные соответствуют ожиданиям
В науке о данных важно тестировать не только функции, но и данные, чтобы убедиться, что они работают так, как вы ожидали. Материалом о простой библиотеке Pandera для валидации фреймов данных Pandas делимся к старту флагманского курса по Data Science.
Чтобы установить Pandera, в терминале наберите:
pip install pandera
Введение
Начнём с простого набора данных, чтобы понять, как работает Pandera:
import pandas as pd fruits = pd.DataFrame( { "name": ["apple", "banana", "apple", "orange"], "store": ["Aldi", "Walmart", "Walmart", "Aldi"], "price": [2, 1, 3, 4], } ) fruits
Представьте: ваш менеджер сказал вам, что в наборе данных могут храниться только определённые фрукты, а значение их цены должно быть меньше 4:
available_fruits = ["apple", "banana", "orange"] nearby_stores = ["Aldi", "Walmart"]
Проверка данных вручную может занять много времени, особенно когда